Dò tìm web chìm Web_chìm

Các nhà nghiên cứu đã khám phá ra cách thức dò tìm web chìm một cách tự động. Năm 2011, Sriram RaghavanHector Garcia-Molina giới thiệu mô hình kiến trúc cho một máy dò web ẩn, sử dụng các từ khóa cung cấp bởi người dùng hoặc thu thập từ các giao diện truy vấn để truy vấn tới các trang và tài nguyên web chìm. Alexandros Ntoulas, Petros Zerfos, và Junghoo ChoUCLA đã tạo ra một máy dò Hidden-Web cho phép tự động tạo ra các truy vấn có ý nghĩa một cách tự động tới các form nhập dữ liệu tìm kiếm. (ví dụ: DEQUEL: ngoài nhập lệnh truy vấn, nó còn chiết xuất dữ liệu có cấu trúc từ các trang kết quả. Một máy dò khác là DeepPeep, một dự án khác của đại học Utah được tài trợ bởi tổ chức National Science Foundation, cho phép tập hợp các nguồn Hidden-Web (dạng Web) trong các tên miền khác nhau dựa vào các kỹ thuật dò tìm dựa trên ngữ cảnh.

Các máy tìm kiếm thương mại đã bắt đầu tạo ra các phương pháp khác nhau để dò tìm web chìm. (Được phát triển đầu tiên bởi Google) và mod oai là các cơ chế cho phép các bên liên quan có thể khám phá các nguồn tài nguyên deep web trên các server (trang chủ) đặc thù. Cả hai cơ chế trên đều cho phép các web server quảng cáo các đường dẫn (URL) được truy cập tới chúng, bằng cách đó nó cho phép tự động khám phá các nguồn tài nguyên không liên kết trực tiếp tới web nổi. Hệ thống duyệt web chìm của Google tính toán trước các tác vụ nhỏ cho mỗi form HTML và đưa vào trang HTML kết quả tìm kiếm vào chỉ mục tìm kiếm của Google. Kết quả hiển thị của các trang web chìm chiếm một ngàn truy vấn trong một giây. Trong hệ thống này, các tính toán trước được thực hiện theo 3 phương thức sau:

  • Chọn các giá trị đầu vào để tìm kiếm các thông tin dạng ký tự (text search) thông qua các từ khóa (keyword),
  • Xác định các yếu tố đầu vào mà chấp nhận chỉ các kiểu dữ liệu xác định nào đó (ví dụ như ngày, tháng...),
  • Chọn một số nhỏ các liên kết đầu vào để tạo ra các URL thích hợp để đưa vào chỉ mục-tìm kiếm-web.

Tài liệu tham khảo

WikiPedia: Web_chìm http://thehackernews.com/2016/02/deep-web-search-e... //citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1... http://ilpubs.stanford.edu:8090/725/ //doi.org/10.1016%2Fj.acalib.2004.04.010 https://www.nytimes.com/2009/02/23/technology/inte... https://www.questia.com/article/1G1-370513892/how-... https://www.sciencedirect.com/science/article/pii/... https://www.theguardian.com/technology/2009/nov/26... https://www.truthfinder.com/infomania/technology/d...